Googles Projekt Astra, Veo und Gemini: Der KI-Upgrade-Kampf
Dies ist Googles Antwort auf OpenAI.
Eine allgemeine KI, eine KI, die im Alltag wirklich genutzt werden kann, es wäre peinlich, eine Pressekonferenz abzuhalten, wenn es jetzt nicht so ist.
Am frühen Morgen des 15. Mai begann die jährliche „Frühlingsfest-Gala der Tech-Welt“, die Google I/O Entwicklerkonferenz. Wie oft wurde Künstliche Intelligenz in der 110-minütigen Haupt-Keynote erwähnt? Google hat es gezählt:
Ja, KI wird jede Minute besprochen.
Der Wettbewerb der generativen KI hat kürzlich einen neuen Höhepunkt erreicht, und die Inhalte dieser I/O-Konferenz drehen sich natürlich um Künstliche Intelligenz.
„Vor einem Jahr auf dieser Bühne haben wir zum ersten Mal unsere Pläne für das native multimodale große Modell, Gemini, geteilt. Es markierte die neue Generation von I/O“, sagte Google-CEO Sundar Pichai. „Heute hoffen wir, dass jeder von der Technologie von Gemini profitieren kann. Diese bahnbrechenden Funktionen werden in die Suche, Bilder, Produktivitätstools, Android-Systeme und viele andere Bereiche eindringen.“
Derzeit sind sowohl 1.5 Pro als auch 1.5 Flash zur öffentlichen Vorschau verfügbar und bieten ein Kontextfenster von 1 Million Token in Google AI Studio und Vertex AI. Jetzt bietet 1.5 Pro auch ein Kontextfenster von 2 Millionen Token für Entwickler, die die API verwenden, und Google Cloud-Kunden über eine Warteliste.
Darüber hinaus wurde Gemini Nano von reinem Texteingang auf Bildeingang erweitert. Später in diesem Jahr wird Google mit Pixel multimodales Gemini Nano einführen. Das bedeutet, dass mobile Nutzer nicht nur Texteingaben verarbeiten, sondern auch mehr kontextuelle Informationen wie visuelle, akustische und gesprochene Sprache verstehen können.
Die Familie Gemini begrüßt ein neues Mitglied: Gemini 1.5 Flash
Das neue 1.5 Flash wurde für Geschwindigkeit und Effizienz optimiert.
Neue Generation Open Source Großmodell Gemma 2
Heute hat Google auch eine Reihe von Updates für das Open Source Großmodell Gemma veröffentlicht – Gemma 2 ist hier.
Wie eingeführt, nutzt Gemma 2 eine neue Architektur, die darauf abzielt, bahnbrechende Leistung und Effizienz zu erreichen, die neuen Open Source Modellparameter betragen 27B.
Wenn es um lange Videos geht, kann Veo Videos von 60 Sekunden oder sogar länger produzieren. Dies kann durch eine einzige Eingabeaufforderung oder durch Bereitstellung einer Reihe von Eingabeaufforderungen geschehen, die zusammen eine Geschichte erzählen. Dies ist entscheidend für die Anwendung von Videogenerierungsmodellen in Film- und Fernsehproduktionen.
Veo basiert auf Googles Arbeiten zur visuellen Inhaltsgenerierung, einschließlich Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere und anderen.